Материалы по тегу: untether ai

11.10.2023 [15:39], Сергей Карасёв

Untether AI выпустила ИИ-ускоритель tsunAImi tsn200 с производительностью 500 TOPS

Компания Untether AI анонсировала специализированный ИИ-ускоритель tsunAImi tsn200, предназначенный для выполнения задач инференса за пределами дата-центров и облачных платформ. Изделие, как утверждается, обеспечивает лучшее в отрасли соотношение производительности, потребляемой энергии и цены.

Решение выполнено в виде низкопрофильной карты расширения с интерфейсом PCIe 4.0 х16. В основу положен чип runAI200, изготовленный по 16-нм технологии. Он имеет динамически изменяемую частоту, которая достигает 840 МГц.

 Источник изображения: Untether AI

Источник изображения: Untether AI

Ускоритель несёт на борту 204 Мбайт памяти SRAM с пропускной способностью до 251 Тбайт/с. Производительность на ИИ-операциях, согласно техническим характеристикам, достигает 500 TOPS (INT8). Типовое энергопотребление заявлено на уровне 40 Вт, максимальное — 75 Вт. Задействована система пассивного охлаждения. Диапазон рабочих температур простирается от 0 до +55 °C. Питание подаётся через дополнительный коннектор PCIe на плате.

Ускоритель, как утверждается, позволяет осуществлять вычисления ЦОД-класса без привязки к облаку. Изделие может применяться для видеоаналитики в режиме реального времени, обнаружения и классификации объектов, проверки сетевых пакетов с целью регулирования и фильтрации трафика и для других задач.

Постоянный URL: http://servernews.ru/1094299
24.08.2022 [22:42], Владимир Мироненко

Untether AI представила ИИ-ускоритель speedAI240 — 1,5 тыс. ядер RISC-V и 238 Мбайт SRAM со скоростью 1 Пбайт/с

Компания Untether AI анонсировала ИИ-архитектуру следующего поколения speedAI (кодовое название «Boqueria»), ориентированную на инференс-нагрузки. При энергоэффективности 30 Тфлопс/Вт и производительности до 2 Пфлопс на чип speedAI устанавливает новый стандарт энергоэффективности и плотности вычислений, говорит компания.

Поскольку at-memory вычисления в ряде задач значительно энергоэффективнее традиционных архитектур, они могут обеспечить более высокую производительность при одинаковых затратах энергии. Первое поколение устройств runAI в 2020 году Untether AI достигла энергоэффективности на уровне 8 Тфлопс/Вт для INT8-вычислений. Новая архитектура speedAI обеспечивает уже 30 Тфлопс/Вт.

 Изображения: Untether AI (via ServeTheHome)

Изображения: Untether AI (via ServeTheHome)

Этого удалось добиться благодаря архитектуре второго поколения, использованию более 1400 оптимизированных 7-нм ядер RISC-V (1,35 ГГц) с кастомными инструкциями, энергоэффективному управлению потоком данных и внедрению поддержки FP8. Вкупе это позволило вчетверо поднять эффективность speedAI по сравнению с runAI. Новинка может быть гибко адаптирована к различным архитектурам нейронных сетей. Концептуально speedAI напоминает ещё один тысячеядерный чип RISC-V — Esperanto ET-SoC-1.

Первый член семейства speedAI — speedAI240 — обеспечивает 2 Пфлопс вычислениях в FP8-вычислениях или 1 Пфлопс для BF16-операций. Благодаря этому обеспечивается самая высокая в отрасли эффективность — например, для модели BERT заявленная производительность составляет 750 запросов в секунду на Вт (qps/w), что, по словам компании, в 15 раз выше, чем у современных GPU. Добиться повышения производительности удалось благодаря тесной интеграции вычислительных элементов и памяти.

На каждый блок SRAM объёмом 328 Кбайт приходится 512 вычислительных блоков, поддерживающих работу с форматами INT4, INT8, FP8 и BF16. Каждый вычислительный блок имеет два 32-бит (RV32EMC) кастомных ядра RISC-V с поддержкой четырёх потоков и 64 SIMD. Всего есть 729 блоков, так что суммарно чип несёт 238 Мбайт SRAM и 1458 ядер. Блоки провязаны между собой mesh-сетью, к которой также подключены кольцевая IO-шина, несущая четыре 1-Мбайт блока общего кеша, два контроллера LPDRR5 (64 бит) и порты PCIe 5.0: один x16 для подключения к хосту и три x8 для объединения чипов.

Суммарная пропускная способность SRAM составляет около 1 Пбайт/с, mesh-сети — от 1,5 до 1,9 Тбайт/с, IO-шины — 141 Гбайт/c в обоих направлениях, а 32 Гбайт DRAM — чуть больше 100 Гбайт/с. PCIe-интерфейсы позволяют объединить до трёх ускорителей, с шестью speedAI240 чипами у каждого. Решения speedAI будут предлагаться как в виде отдельных чипов, так и в составе готовых PCIe-карт и M.2-модулей. Ожидается, что первые поставки избранным клиентам начнутся в первой половине 2023 года.

Постоянный URL: http://servernews.ru/1072806
Система Orphus